当前现有的视觉和语言预训练(VLP)方法的大多数主要集中在如何提取和调整视觉和文本功能上。与主流VLP方法相反,我们强调指出,在训练预训练期间的两个常规应用步骤对预训练模型的性能至关重要:图像介绍(ITM)的内部硬性负面采样(ITM)并分配大型掩盖掩盖语言建模(MLM)的概率。在经验显示上述两个步骤的意外有效性之后,我们系统地设计了砂粒vlp,该砂粒可适应小型批次,以更有效地为ITM挖掘硬性阴性样品,同时维持预训练的计算成本。我们的方法由三个组成部分组成:1)分组的迷你批次采样(砂砾)策略,该策略在迷你批次中收集了类似的示例,2)ITC一致性损失以提高采矿能力,3)MLM的扩大掩蔽概率。因此,我们显示了我们的砂粒vlp在各种下游任务上实现了新的最新性能,计算成本要少得多。此外,我们证明了我们的模型基本上与以前的最先进的ALBEF相提并论,只有三分之一的训练时代在相同的培训数据上。代码可在https://github.com/jaeseokbyun/grit-vlp上找到。
translated by 谷歌翻译
In robotics and computer vision communities, extensive studies have been widely conducted regarding surveillance tasks, including human detection, tracking, and motion recognition with a camera. Additionally, deep learning algorithms are widely utilized in the aforementioned tasks as in other computer vision tasks. Existing public datasets are insufficient to develop learning-based methods that handle various surveillance for outdoor and extreme situations such as harsh weather and low illuminance conditions. Therefore, we introduce a new large-scale outdoor surveillance dataset named eXtremely large-scale Multi-modAl Sensor dataset (X-MAS) containing more than 500,000 image pairs and the first-person view data annotated by well-trained annotators. Moreover, a single pair contains multi-modal data (e.g. an IR image, an RGB image, a thermal image, a depth image, and a LiDAR scan). This is the first large-scale first-person view outdoor multi-modal dataset focusing on surveillance tasks to the best of our knowledge. We present an overview of the proposed dataset with statistics and present methods of exploiting our dataset with deep learning-based algorithms. The latest information on the dataset and our study are available at https://github.com/lge-robot-navi, and the dataset will be available for download through a server.
translated by 谷歌翻译
The standard empirical risk minimization (ERM) can underperform on certain minority groups (i.e., waterbirds in lands or landbirds in water) due to the spurious correlation between the input and its label. Several studies have improved the worst-group accuracy by focusing on the high-loss samples. The hypothesis behind this is that such high-loss samples are \textit{spurious-cue-free} (SCF) samples. However, these approaches can be problematic since the high-loss samples may also be samples with noisy labels in the real-world scenarios. To resolve this issue, we utilize the predictive uncertainty of a model to improve the worst-group accuracy under noisy labels. To motivate this, we theoretically show that the high-uncertainty samples are the SCF samples in the binary classification problem. This theoretical result implies that the predictive uncertainty is an adequate indicator to identify SCF samples in a noisy label setting. Motivated from this, we propose a novel ENtropy based Debiasing (END) framework that prevents models from learning the spurious cues while being robust to the noisy labels. In the END framework, we first train the \textit{identification model} to obtain the SCF samples from a training set using its predictive uncertainty. Then, another model is trained on the dataset augmented with an oversampled SCF set. The experimental results show that our END framework outperforms other strong baselines on several real-world benchmarks that consider both the noisy labels and the spurious-cues.
translated by 谷歌翻译
卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
多模式的机器学习已被广​​泛研究以开发通用智能。最近,感知者和感知者IO出色的多模式算法对各种数据集域和任务显示了竞争结果。但是,最近的作品,感知者和感知者IO专注于异质模式,包括图像,文本和语音,并且对于图形结构化数据集的研究作品很少。图是最概括的数据集结构之一,我们可以代表其他数据集,包括图像,文本和语音作为图形结构化数据。图具有与其他数据集域(例如文本和图像)不同的邻接矩阵,并且处理拓扑信息,关系信息和规范的位置信息并不微不足道。在这项研究中,我们提供了图形感知器IO,即图形结构化数据集的感知器IO。我们将图形感知器IO的主要结构保留为感知器IO,因为除了图形结构化数据集外,感知器IO已经很好地处理了各种数据集。图形感知器IO是一种通用方法,它可以处理各种数据集,例如图形结构化数据以及文本和图像。比较图形神经网络,图感知器IO需要较低的复杂性,并且可以有效地合并局部和全局信息。我们表明,图形感知器IO显示了与图形相关任务的各种竞争结果,包括节点分类,图形分类和链接预测。
translated by 谷歌翻译
学习平均回报或价值功能的预测模型在许多强化学习算法中起着至关重要的作用。相反,分布强化学习(DRL)方法对价值分布进行了建模,该价值分布已被证明可以改善许多设置的性能。在本文中,我们使用Markov链中央限制定理将值分布建模为大约正常的。我们通过分析计算分位数,以提供一个新的DRL目标,该目标通过在情节过程中发生的标准偏差减少所告知。此外,我们还建议基于学习价值分布的近距离探索策略,类似于目标正态分布,以使价值更加准确以更好地改进策略。我们概述的方法与许多DRL结构兼容。我们使用近端政策优化作为测试台,并表明正常性引导的目标和勘探奖金都会改善绩效。我们演示了我们的方法在许多连续的控制任务上优于DRL基准。
translated by 谷歌翻译
弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译
A deep learning strategy is developed for fast and accurate gas property measurements using flame emission spectroscopy (FES). Particularly, the short-gated fast FES is essential to resolve fast-evolving combustion behaviors. However, as the exposure time for capturing the flame emission spectrum gets shorter, the signal-to-noise ratio (SNR) decreases, and characteristic spectral features indicating the gas properties become relatively weaker. Then, the property estimation based on the short-gated spectrum is difficult and inaccurate. Denoising convolutional neural networks (CNN) can enhance the SNR of the short-gated spectrum. A new CNN architecture including a reversible down- and up-sampling (DU) operator and a loss function based on proper orthogonal decomposition (POD) coefficients is proposed. For training and testing the CNN, flame chemiluminescence spectra were captured from a stable methane-air flat flame using a portable spectrometer (spectral range: 250 - 850 nm, resolution: 0.5 nm) with varied equivalence ratio (0.8 - 1.2), pressure (1 - 10 bar), and exposure time (0.05, 0.2, 0.4, and 2 s). The long exposure (2 s) spectra were used as the ground truth when training the denoising CNN. A kriging model with POD is trained by the long-gated spectra for calibration, and then the prediction of the gas properties taking the denoised short-gated spectrum as the input: The property prediction errors of pressure and equivalence ratio were remarkably lowered in spite of the low SNR attendant with reduced exposure.
translated by 谷歌翻译
对象检测的域适应性(DAOD)最近由于其检测目标对象而没有任何注释而引起了很多关注。为了解决该问题,以前的作品着重于通过对抗训练在两阶段检测器中从部分级别(例如图像级,实例级,RPN级)提取的对齐功能。但是,对象检测管道中的个体级别相互密切相关,并且尚未考虑此层次之间的关系。为此,我们为DAOD介绍了一个新的框架,该框架具有三个提出的组件:多尺度意识不确定性注意力(MUA),可转移的区域建议网络(TRPN)和动态实例采样(DIS)。使用这些模块,我们试图在训练过程中减少负转移效应,同时最大化可传递性以及两个领域的可区分性。最后,我们的框架隐含地学习了域不变区域,以通过利用可转移信息并通过协作利用其域信息来增强不同检测级别之间的互补性。通过消融研究和实验,我们表明所提出的模块以协同方式有助于性能提高,以证明我们方法的有效性。此外,我们的模型在各种基准测试方面达到了新的最新性能。
translated by 谷歌翻译
尽管韩国的架构管理信息已经长时间提供了高质量的信息,但信息的效用水平并不高,因为它专注于行政信息。虽然这是这种情况,但具有更高分辨率的三维(3D)地图随着技术的发展而出现。然而,它不能比视觉传输更好地运行,因为它仅包括聚焦在建筑物外部的图像信息。如果可以从3D地图中提取或识别与建筑物外部相关的信息,则预计信息的效用将更有价值,因为国家架构管理信息可以扩展到包括关于建筑物的这些信息外部到BIM的水平(建筑信息建模)。本研究旨在展示和评估利用深度学习和数字图像处理的3D映射的3D映射的建筑物外观相关信息的基本方法。在从地图中提取和预处理图像之后,使用快速R-CNN(具有卷积神经元网络的区域)模型来识别信息。在从地图中提取和预处理图像后,使用更快的R-CNN模型来识别信息。结果,它在检测到建筑物的高度和窗户部分以及旨在提取建筑物的高程信息的实验中的优异性能方面表现出大约93%和91%的精度。尽管如此,预计将通过补充混合由实验者的误解引起的误报或噪声数据的概率来获得改进的结果,从而与窗户的不明确的界限。
translated by 谷歌翻译